Python爬虫

2023-07-11 01:17| 来源: 网络整理| 查看: 265

Python爬虫-requests库抓取页面内容中文乱码

在抓取页面内容过程中，获取的页面内容中文乱码；

response = requests.get(url, headers=headers) if response.status_code == 200: return response.text else: return -1

乱码内容如下：

å°†å¤©å¤©åŸºé‡‘ç½‘è®¾ä¸ºä¸Šç½‘é¦–é¡µå—ï¼Ÿ;;;;;;å°†å¤©å¤©åŸºé‡‘ç½‘æ·»åŠ åˆ°æ”¶è—å¤¹å—ï¼Ÿ å ³äºŽæˆ‘ä»¬|èµ„è´¨è¯æ˜Ž|ç ”ç©¶ä¸å¿ƒ|è”ç³»æˆ‘ä»¬|å®‰å ¨æŒ‡å¼•|å è´£æ¡æ¬¾|éšç§æ¡æ¬¾|é£Žé™©æç¤ºå‡½|æ„è§å»ºè®®|åœ¨çº¿å®¢æœ å¤©å¤©åŸºé‡‘å®¢æœçƒçº¿ï¼š95021;/;4001818188|å®¢æœé‚®ç®±ï¼š[email protected]|äººå·¥æœåŠ¡æ—¶é—´ï¼šå·¥ä½œæ—¥ 7:30-21:30 åŒä¼‘æ—¥ 9:00-21:30 éƒ‘é‡å£°æ˜Žï¼šå¤©å¤©åŸºé‡‘ç³»è¯ç›‘ä¼šæ‰¹å‡†çš„åŸºé‡‘é”€å”®æœºæž„[000000303]ã€‚å¤©å¤©åŸºé‡‘ç½‘æ‰€è½½æ–‡ç« ã€æ•°æ®ä» ä¾›å‚è€ƒï¼Œä½¿ç”¨å‰è¯·æ ¸å®žï¼Œé£Žé™©è‡ªè´Ÿã€‚ ä¸å›½è¯ç›‘ä¼šä¸Šæµ·ç›‘ç®¡å±€ç½‘å€ï¼šwww.csrc.gov.cn/pub/shanghai æ²ªICPè¯:æ²ªB2-20130026;;ç½‘ç«™å¤‡æ¡ˆå·:æ²ªICPå¤‡05006054å·;æ²ªå ¬ç½‘å®‰å¤‡ 31010402000118;ç‰ˆæƒæ‰€æœ‰:å¤©å¤©åŸºé‡‘ç½‘;è¿æ³•å’Œä¸è‰¯ä¿¡æ¯ä¸¾æŠ¥:021-54509966/021-24099099

由此可以猜想到，是在获取页面的过程中出现了编码问题，使用：

response.text.encode("latin1").decode("utf-8")

将获取的内容先进行“latin1”编码，再进行解码（我所抓取网页的编码格式为UTF-8）。最终成功解决，中文显示正常。

【本文地址】

公司简介

联系我们